生成的对抗网络(GAN)是在众多领域成功使用的一种强大的深度学习模型。它们属于一个称为生成方法的更广泛的家族,该家族通过从真实示例中学习样本分布来生成新数据。在临床背景下,与传统的生成方法相比,GAN在捕获空间复杂,非线性和潜在微妙的疾病作用方面表现出增强的能力。这篇综述评估了有关gan在各种神经系统疾病的成像研究中的应用的现有文献,包括阿尔茨海默氏病,脑肿瘤,脑老化和多发性硬化症。我们为每个应用程序提供了各种GAN方法的直观解释,并进一步讨论了在神经影像学中利用gans的主要挑战,开放问题以及有希望的未来方向。我们旨在通过强调如何利用gan来支持临床决策,并有助于更好地理解脑部疾病的结构和功能模式,从而弥合先进的深度学习方法和神经病学研究之间的差距。
translated by 谷歌翻译
多传感器融合对于准确可靠的自主驾驶系统至关重要。最近的方法基于点级融合:通过相机功能增强激光雷达点云。但是,摄像头投影抛弃了相机功能的语义密度,阻碍了此类方法的有效性,尤其是对于面向语义的任务(例如3D场景分割)。在本文中,我们用BevFusion打破了这个根深蒂固的惯例,这是一个有效且通用的多任务多任务融合框架。它统一了共享鸟类视图(BEV)表示空间中的多模式特征,该空间很好地保留了几何信息和语义信息。为了实现这一目标,我们通过优化的BEV池进行诊断和提高视图转换中的钥匙效率瓶颈,从而将延迟降低了40倍以上。 BevFusion从根本上是任务不合时宜的,并且无缝支持不同的3D感知任务,几乎没有建筑变化。它在Nuscenes上建立了新的最新技术,在3D对象检测上获得了1.3%的MAP和NDS,而BEV MAP分段中的MIOU高13.6%,计算成本较低1.9倍。可以在https://github.com/mit-han-lab/bevfusion上获得复制我们结果的代码。
translated by 谷歌翻译
从单个视图图像重建以公制级别的人的3D姿势是一个几何上不成不良的问题。例如,我们不能从单个视图图像测量人对相机的确切距离,而无需额外的场景假设(例如,已知高度)。基于学习的基于学习方法通​​过重建3D构成来规避此问题。然而,有许多应用如虚拟遥读,机器人和增强现实,需要公制量表重建。在本文中,我们示出了与图像一起记录的音频信号,提供互补信息以重建人的度量3D姿势。关键识别是,作为横跨3D空间遍历的音频信号,它们与身体的交互提供有关身体姿势的度量信息。基于这种洞察力,我们介绍了一个称为姿势内核的时间不变传递函数 - 由身体姿势引起的音频信号的脉冲响应。姿势内核的主要属性是(1)其信封与3D姿势高度相关,(2)时间响应对应于到达时间,指示与麦克风的度量距离,(3)它是不变的场景几何配置。因此,它易于概括到看不见的场景。我们设计了一种多级3D CNN,其融合了音频和视觉信号,并学习以公制量表重建3D姿势。我们表明,我们的多模态方法在现实世界场景中产生了准确的公制重建,这是最先进的提升方法,包括参数网回归和深度回归。
translated by 谷歌翻译
3D人类行动的点云序列表现出无序的帧内空间信息和订购的帧间时间信息。为了捕获点云序列的时空结构,通常构造围绕质心周围的跨框架时空局部邻域。然而,时空本地社区的计算昂贵的施工过程严重限制了模型的平行性。此外,在时空局部学习中同样地处理空间和时间信息是不合理的,因为人类的动作沿空间尺寸复杂并且沿着时间尺寸简单。在本文中,为了避免时空局部编码,我们提出了一个强的并行化点云序列网络,称为用于3D动作识别的顺序点。顺序pointNet由两个串行模块,即帧内外观编码模块和帧间运动编码模块组成。为了对人类动作的强空间结构进行建模,每个点云帧在帧内帧内外观编码模块中并行处理,并且每个帧的特征向量被输出以形成特征向量序列,其表征沿时间维度的静态外观变化的变化。为了对人类动作的弱时间变化进行建模,在帧间运动编码模块中,在特征向量序列上实现时间位置编码和分层金字塔汇集策略。另外,为了更好地探索时空内容,在执行端到端的3D动作识别之前聚合人类运动的多个级别特征。在三个公共数据集上进行的广泛实验表明,序贯POINTNETNET优于最新的方法。
translated by 谷歌翻译
恢复程序的呼叫图对于基于流程间分析任务和应用程序至关重要。核心挑战是识别间接呼叫的目标(即,间接分支机构)。由于二进制文件中的信息丢失,如果目标程序以二元形式为二元形式,则变得更具挑战性。二进制文件的现有间接Callee识别解决方案都具有高误报和负面,使呼叫图不准确。在本文中,我们提出了一种基于暹罗神经网络的新解决方案,受到质疑答案应用的进步的启发。关键洞察力是,神经网络可以学习通过理解其上下文,即附近呼叫和分支机构的指示是间接代表的潜在目标。在此洞察力之后,我们首先预处理目标二进制文件,以提取电话和分支的上下文。然后,我们构建适用于汇编语言的自定义自然语言处理(NLP)模型。此外,我们收集了丰富的呼叫和分支,并将其上下文与NLP模型嵌入,然后培训暹罗网络和分类器以回答电呼叫路上的问题。我们已经实施了Inclelee的原型,并在几组目标上进行了评估。评价结果表明,我们的解决方案可以将手段与F1措施相匹配93.7%,召回的93.8%,精度为93.5%,比最先进的解决方案好得多。为了展示其有用性,我们将iCallee应用于两个特定的应用 - 二进制代码相似性检测和二进制程序硬化,并发现它可以大大提高最先进的解决方案。
translated by 谷歌翻译
在本文中,我们用relu,正弦和$ 2^x $构建神经网络作为激活功能。对于$ [0,1]^d $定义的一般连续$ f $,带有连续模量$ \ omega_f(\ cdot)$,我们构造了Relu-sine- $ 2^x $网络,这些网络享受近似值$ \ MATHCAL {o }(\ omega_f(\ sqrt {d})\ cdot2^{ - m}+\ omega_ {f} \ in \ Mathbb {n}^{+} $表示与网络宽度相关的超参数。结果,我们可以构建Relu-Sine- $ 2^x $网络,其深度为$ 5 $和宽度$ \ max \ left \ weft \ {\ left \ lceil2d^{3/2} \ left(\ frac {3 \ mu}) {\ epsilon} \ right)^{1/{\ alpha}} \ right \ rceil,2 \ left \ lceil \ log_2 \ frac {3 \ mu d^{\ alpha/2}} \ rceil+2 \ right \} $ tht \ Mathcal {h} _ {\ mu}^{\ alpha}([0,1]^d)$近似$ f \以$ l^p $ norm $ p \在[1,\ infty)$中的测量,其中$ \ mathcal {h} _ {\ mu}^{\ alpha}(\ alpha}([0,1]^d)$表示H \“ $ [0,1]^d $定义的旧连续函数类,带有订单$ \ alpha \ in(0,1] $和常数$ \ mu> 0 $。因此,relu-sine- $ 2^x $网络克服了$ \ Mathcal {h} _ {\ mu}^{\ alpha}([0,1]^d)$。除了其晚餐表达能力外,由relu-sine- $ 2实施的功能,也克服了维度的诅咒。 ^x $网络是(广义)可区分的,使我们能够将SGD应用于训练。
translated by 谷歌翻译
不同的环境对长期自主驾驶的户外强大的视觉感知构成了巨大挑战,以及对不同环境影响的学习算法的概括仍然是一个公开问题。虽然最近单眼深度预测得到了很好的研究,但很少有很多工作,专注于不同环境的强大的基于学习的深度预测,例如,由于缺乏如此多环境的现实世界数据集和基准测试,不断变化照明和季节。为此,基于CMU Visual Location DataSet建立了第一个跨赛季单眼深度预测数据集和基准赛季。为了基准不同环境下的深度估计性能,我们使用几个新配制的指标调查来自Kitti基准的代表性和最近的最先进的开源监督,自我监督和域适应深度预测方法。通过对所提出的数据集进行广泛的实验评估,定性和定量分析了多种环境对性能和鲁棒性的影响,表明即使微调,长期单眼深度预测也仍然具有挑战性。我们进一步提供了承诺的途径,即自我监督的培训和立体声几何约束有助于提高改变环境的鲁棒性。数据集可在https://seasondepth.github.io上找到,并且在https://github.com/seasondepth/seasondepth上提供基准工具包。
translated by 谷歌翻译
本文研究了知识图的推荐系统,可以有效地解决数据稀疏和冷启动的问题。最近,已经为这个问题开发了各种方法,这通常试图根据其表示,学习用户和物品的有效陈述,然后根据其表示将项目匹配。虽然这些方法已经表现得非常有效,但它们缺乏良好的解释,这对推荐系统至关重要。在本文中,我们采取了不同的路线,并提出通过从用户到项目的有意义路径来创造建议。具体地,我们将问题作为顺序决策过程,其中目标用户被定义为初始状态,并且图中的边缘被定义为动作。我们根据现有的最先进方法塑造奖励,然后使用策略梯度方法培训策略函数。三个现实世界数据集的实验结果表明,我们的提出方法不仅提供有效的建议,还提供了良好的解释。
translated by 谷歌翻译
The advance of computer-aided detection systems using deep learning opened a new scope in endoscopic image analysis. However, the learning-based models developed on closed datasets are susceptible to unknown anomalies in complex clinical environments. In particular, the high false positive rate of polyp detection remains a major challenge in clinical practice. In this work, we release the FPPD-13 dataset, which provides a taxonomy and real-world cases of typical false positives during computer-aided polyp detection in real-world colonoscopy. We further propose a post-hoc module EndoBoost, which can be plugged into generic polyp detection models to filter out false positive predictions. This is realized by generative learning of the polyp manifold with normalizing flows and rejecting false positives through density estimation. Compared to supervised classification, this anomaly detection paradigm achieves better data efficiency and robustness in open-world settings. Extensive experiments demonstrate a promising false positive suppression in both retrospective and prospective validation. In addition, the released dataset can be used to perform 'stress' tests on established detection systems and encourages further research toward robust and reliable computer-aided endoscopic image analysis. The dataset and code will be publicly available at http://endoboost.miccai.cloud.
translated by 谷歌翻译
最近,通过“向导”模拟游戏收集了一类以任务为导向的对话(TOD)数据集。但是,《巫师》数据实际上是模拟的数据,因此与现实生活中的对话根本不同,这些对话更加嘈杂和随意。最近,Seretod挑战赛是组织的,并发布了Mobilecs数据集,该数据集由来自中国移动的真实用户和客户服务人员之间的真实世界对话框组成。基于Mobilecs数据集,Seretod挑战具有两个任务,不仅评估了对话系统本身的构建,而且还检查了对话框成绩单中的信息提取,这对于建立TOD的知识库至关重要。本文主要介绍了Mobilecs数据集对这两项任务的基线研究。我们介绍了如何构建两个基线,遇到的问题以及结果。我们预计基线可以促进令人兴奋的未来研究,以建立针对现实生活任务的人类机器人对话系统。
translated by 谷歌翻译